Mixture of Experts（MoE / 混合エキスパート）

概要

Mixture of Experts（MoE, 混合エキスパート）は、Transformer の一部を複数の「エキスパート（専門家）」サブネットワークに分け、入力ごとに 一部のエキスパートだけを活性化 させるアーキテクチャです。総パラメータ数を増やしつつ、推論時に使う計算量（活性化パラメータ）を抑えられるため、大規模大規模言語モデルの効率的なスケーリング手法として注目されています。書籍『つくりながら学ぶ！LLM自作入門』でも、Transformer の派生として MoE が紹介されています。

仕組み

エキスパート群 — 複数のフィードフォワードネットワーク（Transformer の FFN を置き換え）
ルーター（Gating Network） — 各トークンをどのエキスパートへ送るか決める
スパース活性化 — 全エキスパートのうち上位 k 個だけを使う

トークン → ルーター → 上位k個のエキスパートのみ実行 → 統合

利点と課題

利点	課題
総容量を増やしても推論コストを抑制	学習が不安定になりやすい
専門化による性能向上	エキスパート間の負荷バランス
	メモリには全エキスパートを保持する必要

実モデルの動向（Daily フィード）

「総パラメータは大きく、活性化パラメータは小さく」という MoE の効率性を突き詰めたモデルが相次いでいます。

MiniMax-M2 — 229.9B 総パラメータのうち 1 トークンあたり 9.8B のみ活性化。エージェント駆動データパイプラインと長期エージェント運用向け RL（Forge）で訓練し、M2.7 チェックポイントは自律デバッグ・自己修正を示す（自己改善エージェント）。The_MiniMax-M2_Series
ZAYA1-8B — 推論特化の MoE++（8B 総 / 700M 活性化）。AIME’25 91.9%、HMMT’25 89.6%（テスト時計算併用）、4 段階 RL カスケードと Markovian RSA。AMD のエコシステムで事前学習〜微調整を実施（LLMの推論）。ZAYA1-8B_Technical_Report
GLM-5.2 — オープンウェイト最高性能クラス（744B 総 / 40B 活性化、コンテキスト 100 万トークン、MIT ライセンス）。科学的推論で大きく改善し、Artificial Analysis Intelligence Index で MiniMax-M3・DeepSeek V4 Pro を上回る。コスト効率の Pareto 境界に位置（ローカルLLM のオープンウェイト）。参考: GLM-5.2_Leading_Open_Weights_Model

参考資料

つくりながら学ぶ！LLM自作入門（Transformer の派生としての MoE）

Mixture of Experts（MoE / 混合エキスパート）

概要

仕組み

利点と課題

実モデルの動向（Daily フィード）

関連ページ

参考資料